# Explorando y analizando DataFrames con Pandas

__[Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html)__ es un paquete construido sobre la base de NumPy, incluye la implementación de la estructura **DataFrame**. Un DataFrame es, en esencia, un arreglo bidimensional con etiquetas para filas y columnas, típicamente las columnas contienen tipo de datos diferentes.

1. [Series](#1)
2. [DataFrame](#2)
3. [Índices](#3)
4. [Obtención de datos](#4)
5. [Se utiliza *(&, |)* en lugar de *(and, or)*](#8)
6. [Modificación de datos](#5)
7. [Apply](#6)
8. [One Hot Encoding](#7)

In [9]:
import numpy as np
import pandas as pd

## Series

<a id="1"></a>

Un objecto de tipo *Series* es un arreglo de datos, parecido a un *Array* de *numpy*, que consta de índices y valores.

Aquí algunos enlaces de referencia:
- https://pandas.pydata.org/pandas-docs/stable/reference/series.html#computations-descriptive-stats
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

 **Una serie tiene varios métodos, como `min, mean, std`, entre muchos otros. Para crear una serie:**

In [10]:
serie = pd.Series([0.25, 0.5, 0.75, 1.0])
print(serie)
print('Desviación estándar: ', serie.std())

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
Desviación estándar:  0.3227486121839514


**Una serie tiene valores e índices:**

In [11]:
print('Valores: ', serie.values)
print('Índices: ', serie.index)

Valores:  [0.25 0.5  0.75 1.  ]
Índices:  RangeIndex(start=0, stop=4, step=1)


**Filtrado de datos, retorna una Serie de valores booleanos:**

In [12]:
serie > 0.5

0    False
1    False
2     True
3     True
dtype: bool

In [13]:
serie.isnull()

0    False
1    False
2    False
3    False
dtype: bool

**A diferencia de los arreglos de *Numpy*, a una Serie se le puede asignar un indice de manera explícta:**

In [14]:
serie = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd']) 
print(serie['a':'c'])

a    0.25
b    0.50
c    0.75
dtype: float64


**Se puede crear una Serie a partir de un diccionario (clave -> indice)**

In [15]:
poblacion_dict = {'Chuquisaca': 626000, 
                  'La Paz': 26448193,
                  'Cochabamba': 2883000,
                  'Oruro': 538000,
                  'Potosí': 887000,
                  'Tarija': 563000,
                  'Santa Cruz': 3225000,
                  'Beni': 468000,
                  'Pando': 144000 }
poblacion = pd.Series(poblacion_dict)
poblacion

Chuquisaca      626000
La Paz        26448193
Cochabamba     2883000
Oruro           538000
Potosí          887000
Tarija          563000
Santa Cruz     3225000
Beni            468000
Pando           144000
dtype: int64

**Otros ejemplos de creación de Series**

In [16]:
serie = pd.Series(5, index=[100, 200, 300])
serie

100    5
200    5
300    5
dtype: int64

**Selección de claves del diccionario (solo se crea un serie con una parte del diccionario)**

In [17]:
serie = pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])
serie

3    c
2    a
dtype: object

## Dataframes

<a id="2"></a>

Un *DataFrame* es un arreglo bi-dimensional formado por una secuencia de Series con la misma cantidad de elementos y con el mismo índice. Es decir: es como un diccionario de Series del mismo tamaño y con los mismos índices. Un *DataFrame* permite asignar nombres a las columnas.

In [18]:
extension_departamentos_Bolivia_dict = {'Chuquisaca': 51514, 
                    'La Paz': 133985,
                    'Cochabamba': 55631,
                    'Oruro': 55588,
                    'Potosí': 117218,
                    'Tarija': 37623,
                    'Santa Cruz': 370621,
                    'Beni': 213564
                  }
extension_departamentos_Serie = pd.Series(extension_departamentos_Bolivia_dict)
extension_departamentos_Serie

Chuquisaca     51514
La Paz        133985
Cochabamba     55631
Oruro          55588
Potosí        117218
Tarija         37623
Santa Cruz    370621
Beni          213564
dtype: int64

**Creación a partir de dos Series que tiene el mismo index (aunque los indices no estén en el mismo order o incluso falten datos en algunas de las Series)**

In [19]:
datos_bolivia = pd.DataFrame({'poblacion': poblacion, 'extension': extension_departamentos_Serie})
datos_bolivia

Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


**Tanto las filas como las columnas tienen asociado un índice**

In [20]:
print(datos_bolivia.index)
print(datos_bolivia.columns)

Index(['Beni', 'Chuquisaca', 'Cochabamba', 'La Paz', 'Oruro', 'Pando',
       'Potosí', 'Santa Cruz', 'Tarija'],
      dtype='object')
Index(['poblacion', 'extension'], dtype='object')


**Se puede ver a un DataFrame como un diccionario de Series (columnas)**

In [21]:
datos_bolivia['poblacion']

Beni            468000
Chuquisaca      626000
Cochabamba     2883000
La Paz        26448193
Oruro           538000
Pando           144000
Potosí          887000
Santa Cruz     3225000
Tarija          563000
Name: poblacion, dtype: int64

**Otras maneras de crear un DataFrame: si no se provee un índice se crea una secuencia de numeros que empieza en 0.**

In [22]:
data = pd.DataFrame(columns=['a','b'], data=[[1, 45], [87, 96], [125, 13], [135, 789]])
data

Unnamed: 0,a,b
0,1,45
1,87,96
2,125,13
3,135,789


**Lista de diccionarios (las claves son los nombres de las columnas)**

In [23]:
data = pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])
data

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


**Información general de un *DataFrame***

In [24]:
datos_bolivia.shape

(9, 2)

In [25]:
datos_bolivia.head(5)

Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0


In [26]:
datos_bolivia.tail(5)

Unnamed: 0,poblacion,extension
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


In [27]:
datos_bolivia.size

18

In [28]:
datos_bolivia.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, Beni to Tarija
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   poblacion  9 non-null      int64  
 1   extension  8 non-null      float64
dtypes: float64(1), int64(1)
memory usage: 516.0+ bytes


In [29]:
# la función describe() devuele un DataFrame con indicadores para cada una de las columnas
datos_bolivia.describe()

Unnamed: 0,poblacion,extension
count,9.0,8.0
mean,3975799.0,129468.0
std,8499862.0,113904.633998
min,144000.0,37623.0
25%,538000.0,54569.5
50%,626000.0,86424.5
75%,2883000.0,153879.75
max,26448190.0,370621.0


# Indices

<a id="3"></a>

Un *Index* es el mecanismo para referenciar datos en las Series y los DataFrames. Un Index object es un **conjunto** ordenado de valores

In [30]:
indA = pd.Index([1, 3, 5, 7, 9]) 
indB = pd.Index([2, 3, 5, 7, 11])

In [31]:
print(indA.union(indB))
print(indA.intersection(indB))
print(indA.difference(indB))

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 9], dtype='int64')


# Extracción de datos

<a id="4"></a>

Extraer datos de un DataFrame o una serie.

In [32]:
datos_bolivia = pd.DataFrame(data={'poblacion':poblacion, 'extension':extension_departamentos_Serie})
datos_bolivia

Unnamed: 0,poblacion,extension
Beni,468000,213564.0
Chuquisaca,626000,51514.0
Cochabamba,2883000,55631.0
La Paz,26448193,133985.0
Oruro,538000,55588.0
Pando,144000,
Potosí,887000,117218.0
Santa Cruz,3225000,370621.0
Tarija,563000,37623.0


**Un *DataFrame* es como diccionario de Series (columnas) en el cual se puede extraer y modificar datos**

In [33]:
datos_bolivia['poblacion']
datos_bolivia[['poblacion','extension']]
datos_bolivia['constante'] = 1
datos_bolivia['densidad'] = datos_bolivia['poblacion'] / datos_bolivia['extension']
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad
Beni,468000,213564.0,1,2.191381
Chuquisaca,626000,51514.0,1,12.152036
Cochabamba,2883000,55631.0,1,51.823624
La Paz,26448193,133985.0,1,197.396671
Oruro,538000,55588.0,1,9.678348
Pando,144000,,1,
Potosí,887000,117218.0,1,7.567097
Santa Cruz,3225000,370621.0,1,8.701612
Tarija,563000,37623.0,1,14.964251


In [46]:
datos_bolivia['capital'] =  pd.Series(
    {'Chuquisaca': 'Sucre', 
    'La Paz': 'Murillo',
    'Cochabamba': 'Cercado',
    'Oruro': 'Cercado',
    'Potosí': 'Potosí',
    'Tarija': 'Tarija',
    'Santa Cruz': 'Santa Cruz de la Sierra',
    'Pando': 'Cobija',
    'Beni': 'Trinidad' })
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cercado
La Paz,26448193,133985.0,197.396671,Murillo
Oruro,538000,55588.0,9.678348,Cercado
Pando,144000,,,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz de la Sierra
Tarija,563000,37623.0,14.964251,Tarija


**Un DataFrame es también como un arreglo bidimensional (una matriz de Series)
Soporta indices, slicing, filtering empleando los indices explicitos (iloc usa indices numéricos implicitos).
El primer valor de la matriz hace referencia a las filas**

- https://railsware.com/blog/python-for-machine-learning-indexing-and-slicing-for-lists-tuples-strings-and-other--sequential-types/

In [35]:
datos_bolivia.loc['Beni']

poblacion      468000
extension    213564.0
constante           1
densidad     2.191381
capital      Trinidad
Name: Beni, dtype: object

In [36]:
datos_bolivia.loc['Beni':'Oruro']

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro


In [37]:
datos_bolivia['poblacion'] > 2000000

Beni          False
Chuquisaca    False
Cochabamba     True
La Paz         True
Oruro         False
Pando         False
Potosí        False
Santa Cruz     True
Tarija        False
Name: poblacion, dtype: bool

In [38]:
datos_bolivia['extension'].isnull()

Beni          False
Chuquisaca    False
Cochabamba    False
La Paz        False
Oruro         False
Pando          True
Potosí        False
Santa Cruz    False
Tarija        False
Name: extension, dtype: bool

## Se utiliza *(&, |)* en lugar de *(and, or)*

<a id="8"></a>

In [39]:
datos_bolivia.loc[(datos_bolivia['poblacion'] > 2000000) & (datos_bolivia['extension']> 60000.0), ['poblacion','densidad'] ]
datos_bolivia

Unnamed: 0,poblacion,extension,constante,densidad,capital
Beni,468000,213564.0,1,2.191381,Trinidad
Chuquisaca,626000,51514.0,1,12.152036,Sucre
Cochabamba,2883000,55631.0,1,51.823624,Cochabamba
La Paz,26448193,133985.0,1,197.396671,La Paz
Oruro,538000,55588.0,1,9.678348,Oruro
Pando,144000,,1,,Cobija
Potosí,887000,117218.0,1,7.567097,Potosí
Santa Cruz,3225000,370621.0,1,8.701612,Santa Cruz
Tarija,563000,37623.0,1,14.964251,Tarija


# Modificación de datos

<a id="5"></a>

**Elimina todos los datos de una columna**

In [40]:
datos_bolivia.drop(columns=['constante'], inplace=True)
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,,,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


**Eliminar los datos faltantes (los que son NaN)**

In [41]:
datos_bolivia.dropna(how='any')

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


In [42]:
datos_bolivia.loc['Pando', 'densidad'] = datos_bolivia.loc['Pando', 'poblacion'] / datos_bolivia.loc['Pando', 'extension']
datos_bolivia

Unnamed: 0,poblacion,extension,densidad,capital
Beni,468000,213564.0,2.191381,Trinidad
Chuquisaca,626000,51514.0,12.152036,Sucre
Cochabamba,2883000,55631.0,51.823624,Cochabamba
La Paz,26448193,133985.0,197.396671,La Paz
Oruro,538000,55588.0,9.678348,Oruro
Pando,144000,,,Cobija
Potosí,887000,117218.0,7.567097,Potosí
Santa Cruz,3225000,370621.0,8.701612,Santa Cruz
Tarija,563000,37623.0,14.964251,Tarija


## Apply

<a id="6"></a>

Appy aplica una función que recibe como argumento a cada una de las columnas (o filas) de un DataFrame. Modifica el DataFrame existente.

**axis=0 es la opción por defecto, significa que se recorrerá el DataFrame por las columnas (similar a recorrer una matriz por columas). Si axis=1 el DataFrame se recorrerá por sus filas.**

In [43]:
datos_bolivia_extension_reducida_a_la_mitad = datos_bolivia.apply(lambda x: x['extension']/2, axis=1)
datos_bolivia_extension_reducida_a_la_mitad

Beni          106782.0
Chuquisaca     25757.0
Cochabamba     27815.5
La Paz         66992.5
Oruro          27794.0
Pando              NaN
Potosí         58609.0
Santa Cruz    185310.5
Tarija         18811.5
dtype: float64

## One Hot Encoding

<a id="7"></a>

Conversión de valores numéricos y nominales en categorías y luego las categorías en valores numéricos.
Necesario cuando el algoritmo de aprendizaje automático no es capaz de trabajar con valores nominales o contínuos

**Obtener los códigos de una variable nominal**

In [44]:
datos_bolivia['capital'].astype('category').cat.codes

Beni          8
Chuquisaca    6
Cochabamba    1
La Paz        2
Oruro         3
Pando         0
Potosí        4
Santa Cruz    5
Tarija        7
dtype: int8

**Obtener el vector One Hot Encoding**

In [45]:
pd.get_dummies(datos_bolivia,columns=['capital'])

Unnamed: 0,poblacion,extension,densidad,capital_Cobija,capital_Cochabamba,capital_La Paz,capital_Oruro,capital_Potosí,capital_Santa Cruz,capital_Sucre,capital_Tarija,capital_Trinidad
Beni,468000,213564.0,2.191381,0,0,0,0,0,0,0,0,1
Chuquisaca,626000,51514.0,12.152036,0,0,0,0,0,0,1,0,0
Cochabamba,2883000,55631.0,51.823624,0,1,0,0,0,0,0,0,0
La Paz,26448193,133985.0,197.396671,0,0,1,0,0,0,0,0,0
Oruro,538000,55588.0,9.678348,0,0,0,1,0,0,0,0,0
Pando,144000,,,1,0,0,0,0,0,0,0,0
Potosí,887000,117218.0,7.567097,0,0,0,0,1,0,0,0,0
Santa Cruz,3225000,370621.0,8.701612,0,0,0,0,0,1,0,0,0
Tarija,563000,37623.0,14.964251,0,0,0,0,0,0,0,1,0
